python爬虫实战

您所在的位置:网站首页 本周国内重大新闻十条 今日头条视频 python爬虫实战

python爬虫实战

2024-02-01 07:18| 来源: 网络整理| 查看: 265

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码

第三方库: requests >>> pip install requests

第三方模块安装:

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)

开发环境:

python 3.8

pycharm 专业版

案例步骤:

一. 思路分析

找到数据来源地址

文章标题 文章发布时间 文章内容

在列表页当中获取详情页的链接

访问详情页链接 拿到 需要的数据

二. 代码实现

访问列表页链接

本案例视频教程/源码可+V:qian97378,还可获取:

python安装包 安装教程视频

pycharm 社区版 专业版 及 激活码免费

代码展示 ''' python资料获取看这里噢!! 小编 V:qian97378,即可获取: 文章源码/教程/资料/解答等福利,还有不错的视频学习教程和PDF电子书! ''' import requests from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() headers = { 'Referer': 'https://***屏蔽,不然发不出***/?wid=1697699263232', 'cookie': 'ttcid=92ece02000f2467c8199a042d1a7783d39; csrftoken=ae047567561c48e5dd9e2fc0b22ea545; tt_anti_token=04f1H0rq1BU-9b92ba89f64e967f88b554f9888051221bf2afb87f2d4944350b78b2a42969f6; tt_webid=7194689479734134327; local_city_cache=%E9%95%BF%E6%B2%99; _ga=GA1.1.1774896154.1697699265; s_v_web_id=verify_lnwub4sw_omFJ90tA_qOum_4AzC_8f7f_zAvYWn8bjFbi; _S_WIN_WH=1611_817; _S_DPR=1; _S_IPAD=0; msToken=tlOZw3Cf8-FurmSOujuTolA64e0t8pvjXe0ZvtWz8xZnlufMZEA3jAuXwmeVMujIh2nnkoNEDndXJc83JtWJctnhGizVqudQLY9hhrJd; _ga_QEHZPBE5HH=GS1.1.1697699264.1.1.1697700966.0.0.0; tt_scid=rI2Aqe4745U2cQcnyiJFQquxaMuGqBEeR849tR2hG41-cApqsmw2F3uBx7Fjtl0f72db; ttwid=1%7CiWx9zpr2eLSL5pxwfW7PdpTasAnL2Tszm5jFlS0A_ac%7C1697700966%7C075ec2a1c6ec5be355f2cdf0f5bbb1d33c2a2ed36743aebea5dc2609b1e73a79', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36' } url = 'https://***屏蔽,不然发不出***/api/pc/list/feed?channel_id=0&max_behot_time=1697699614&offset=0&category=pc_profile_recommend&aid=24&app_name=toutiao_web&_signature=_02B4Z6wo00101.CXQxAAAIDCk52Derk.V6Pws0eAAJkeQEsbY9XZOs-9WUI.4KOjzx5RWdVK7Uc6XjjHHZwZUf3MSEY9lGtY1O7hGUt4Ji3bXrDCOlnlmIYTKDhUlOIpPF0OjwF4K22oKIrMe2' # 1. 访问列表页链接 response = requests.get(url=url, headers=headers) # 2. 提取数据 json_data = response.json() # 拿到所有的数据 # 将这个数据里面的 详情页链接 标题 拿到 data_list = json_data['data'] for data in data_list: detail_url = data['url'] print(detail_url) title = data['title'] driver.get(detail_url) driver.implicitly_wait(2) create_time = driver.find_element(By.XPATH, '//div[@class="article-meta"]').text content = driver.find_element(By.XPATH, '//article').get_attribute("outerHTML") print(title, create_time, content) 尾语

好了,今天的分享就差不多到这里了!

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇 更多源码、资料、素材、解答、交流 皆点击下方名片获取呀👇👇👇



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3